Laion

[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA

IA pas de consentement

10

Laion

Human Right Watch a analysé une partie de la base de données LAION-5B très utilisée pour entrainer des outils d'IA générateurs d'images. L'ONG s'est rendu compte qu'elle contiendrait des liens vers des photos d'enfants brésiliens et australiens sans leur consentement.

Mise à jour le 3 juillet 2024 à 9h15 : ajout de la partie sur les photos d'enfants australiens

Article original publié le 11 juin 2024 à 17h22 :

L'ONG Human right watch explique avoir repéré des photos personnelles d'enfants brésiliens dans la base de données LAION-5B. Créée par le professeur de lycée allemand Christoph Schuhmann, celle-ci a été notamment utilisée par Stable Diffusion et par Google pour entrainer leurs modèles d'IA génératives de text-to-image.

Une toute petite partie de la base de données explorée

Ces photos ne figurent pas en tant que telles dans la base de données. LAION-5B liste notamment des liens vers diverses photos mises en ligne et qu'elle associe à du texte. Elle s'appuie sur l'autre base de données Common Crawl qui parcourt internet et stocke les contenus trouvés.

La chercheuse de l'ONG, Hye Jung Han, a examiné une toute petite partie de LAION-5B (moins de 0,0001 % des 5,85 milliards d'images) mais a trouvé 170 photos d'enfants brésiliens venant d'au moins 10 États du pays.

Des photos de moments intimes

La plupart de ces photos n'ont été vues que par très peu de personne et « semblent avoir bénéficié auparavant d'une certaine intimité » explique Human Rights Watch, qui a vérifié en utilisant des moteurs de recherche.

L'ONG affirme que LAION, l'association allemande fondée par Schuhmann pour gérer la base de données, a confirmé l'existence des liens vers ces photos dans sa base de données et a promis de les supprimer. Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Dans une réponse à Wired, LAION a affirmé avoir supprimé les liens vers les contenus signalés par Human Right Watch. Mais un de ses représentants a ajouté que « la suppression des liens d'un ensemble de données LAION ne supprime pas ce contenu du web [...] il s'agit d'un problème plus vaste et très préoccupant, et en tant qu'organisation bénévole à but non lucratif, nous ferons notre part pour y remédier ».

Selon l'association, les photos listées par LAION représentaient « des moments intimes comme des bébés naissant entre les mains gantées de médecins, des jeunes enfants soufflant les bougies de leur gâteau d'anniversaire ou dansant en sous-vêtements à la maison, d'élèves faisant un exposé à l'école et d'adolescents posant pour des photos à carnaval du lycée ».

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données. Ensuite, ces outils d'intelligence artificielle sont entrainés à partir de ces données et peuvent donc créer des images réalistes d'enfants ». Elle ajoute que « la technologie est développée de telle sorte que tout enfant qui possède une photo ou une vidéo de lui en ligne est désormais en danger, car n'importe quel acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour la manipuler à sa guise ».

LAION-5B plus accessible publiquement

Depuis décembre dernier, LAION-5B n'est plus accessible publiquement. L'association a pris cette décision car des chercheurs de Stanford ont identifié 3 226 liens vers des images pédocriminelles potentielles. « La plupart d'entre elles ont été identifiées comme telles par des tierces parties » expliquaient-ils.

Dans un communiqué sur son site, LAION affirmait qu'elle appliquait «  une politique de tolérance zéro à l'égard des contenus illégaux et, dans un souci de prudence, nous retirons temporairement les jeux de données de LAION pour nous assurer qu'ils sont sûrs avant de les republier ».

Des photos d'enfants australiens utilisées

Hye Jung Han a aussi trouvé 190 photos d'enfants australiens dans LAION-5B, explique ce mardi 2 juillet l'ONG. Comme pour les photos des enfants brésiliens, celles-ci montrent des enfants dans toutes sortes de scènes de leur vie. Certains enfants australiens appartiennent à différents groupes aborigènes (Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri).

Ici encore, la plupart des photos n'étaient pas disponibles via une requête dans un moteur de recherche.
L'une d'elles provient même d'une vidéo YouTube dont l'utilisateur avait pourtant fait attention à la mettre en « non répertoriée ».

Les noms de certains enfants figurent parfois dans la légende de la photo ou dans l'URL de l'adresse stockée par LAION-5B. De plus, l'ONG assure qu'il est souvent facile de retrouver l'identité des enfants ainsi que le lieu et le moment de la photo.

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l'IA ».

Commentaires (10)


Voilà encore le problème éthique en IA....
rien de neuf.
Des applications android pour vieillir son visage font de meme. Ca fait une large base de donnees gratuites pour ameliorer la reconnaissance faciale. Applications bien entendu gratuites!
Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données (...)


J'ai envie de dire que leur vie privée est violée à l'instant même où ces photos sont publiées publiquement sans leur consentement. Cf le sharenting.

C'est surtout une véritable éducation à la protection de celle-ci qu'il faut avoir. Si c'est posté sur Internet en public, tout le monde y a accès et tout le monde en fera ce qu'il voudra. Pas d'exception.
Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.


Voilà.
Modifié le 12/06/2024 à 08h23

Historique des modifications :

Posté le 12/06/2024 à 08h22


Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données (...)


J'ai envie de dire que leur vie privée est violée à l'instant même où ces photos sont publiées publiquement sans leur consentement. Cf le sharenting.

C'est surtout une véritable éducation à la protection de celle-ci qu'il faut avoir. Si c'est posté sur Internet en public, tout le monde y a accès et tout le monde en fera ce qu'il voudra. Pas d'exception.

Il y a 20 ans, on nous disait que tout ce qui était déposé sur internet était à considérer comme publique. Et moi, perso, ça reste ma philosophie : je ne dépose rien que je ne veux pas voir diffusé publiquement.

tazvld

Il y a 20 ans, on nous disait que tout ce qui était déposé sur internet était à considérer comme publique. Et moi, perso, ça reste ma philosophie : je ne dépose rien que je ne veux pas voir diffusé publiquement.
Il y a 25 ans, internet était un espace quelque peu dangereux.
Maintenant il est peuplé de sociétés qui oeuvrent pour le bien de l'humanité, sans penser un instant à leur portefeuille.
Publiquement accessible ne signifie qu'on peut légalement en faire ce qu'on veut.
C'est très bien d'avoir une hygiène numérique, ça n'excuse pas pour autant la réutilisation sans consentement ... a priori la question du droit d'auteur sur le matériel d'entraînement n'est pas tranchée (?)

jotak

Publiquement accessible ne signifie qu'on peut légalement en faire ce qu'on veut.
C'est très bien d'avoir une hygiène numérique, ça n'excuse pas pour autant la réutilisation sans consentement ... a priori la question du droit d'auteur sur le matériel d'entraînement n'est pas tranchée (?)
Ce n'est pas une question d'excuser les usages sans consentement, mais plutôt d'attaquer le problème à la source : poster publiquement signifie que le premier tordu fera ce qu'il veut avec.

Peu importe que la loi d'un Etat qui lui est étranger le lui permette où non, les risques d'être poursuivi étant quasi nuls.

La génération de matériel pédopornographique par IA est tout autant une réalité et un business que ceux mettant en scène des adultes (c'est même un très vieux business, le photomontage de célébrités sur des corps nus ne date pas des deep fakes, il fallait juste plus de skill photoshop). Et pour fonctionner, ils ont besoin de données d'entraînement. La première action pour se protéger le plus possible de ça, c'est de ne pas publier en public.

(ne pas publier sur les pompes à données personnelles serait encore mieux, mais nous sommes à l'ère de la vanité, du narcissisme, du personal branding sur les médias sociaux, donc autant prêcher dans le désert)

Rappelez-vous qu'à une époque (je ne sais pas si ça existe encore), les sites comme Facebook s'accordaient une license d'exploitation sur les contenus que vous mettiez dessus. S'ils décidaient de foutre votre tronche sur une pub pour un plug anal ((c) Flock), ils en avaient le droit puisque vous leur aviez donné l'autorisation dans les CGU de 15km que personne ne lit. Depuis je pense que ça a sauté pour les européens à cause du RGPD qui exige un consentement libre et éclairé, mais dans le cas des autres pays aux législations moins contraignantes, j'ai des doutes.

SebGF

Ce n'est pas une question d'excuser les usages sans consentement, mais plutôt d'attaquer le problème à la source : poster publiquement signifie que le premier tordu fera ce qu'il veut avec.

Peu importe que la loi d'un Etat qui lui est étranger le lui permette où non, les risques d'être poursuivi étant quasi nuls.

La génération de matériel pédopornographique par IA est tout autant une réalité et un business que ceux mettant en scène des adultes (c'est même un très vieux business, le photomontage de célébrités sur des corps nus ne date pas des deep fakes, il fallait juste plus de skill photoshop). Et pour fonctionner, ils ont besoin de données d'entraînement. La première action pour se protéger le plus possible de ça, c'est de ne pas publier en public.

(ne pas publier sur les pompes à données personnelles serait encore mieux, mais nous sommes à l'ère de la vanité, du narcissisme, du personal branding sur les médias sociaux, donc autant prêcher dans le désert)

Rappelez-vous qu'à une époque (je ne sais pas si ça existe encore), les sites comme Facebook s'accordaient une license d'exploitation sur les contenus que vous mettiez dessus. S'ils décidaient de foutre votre tronche sur une pub pour un plug anal ((c) Flock), ils en avaient le droit puisque vous leur aviez donné l'autorisation dans les CGU de 15km que personne ne lit. Depuis je pense que ça a sauté pour les européens à cause du RGPD qui exige un consentement libre et éclairé, mais dans le cas des autres pays aux législations moins contraignantes, j'ai des doutes.
Des photos d'enfants australiens utilisées

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l'IA ».


Donc, ces photos ont été utilisées sans violer de loi australienne.

Quant à la photo d'enfant en bas de l'article sur hrw.org qui est là pour demander des dons (déductibles pour les impôts, c'est bien précisé !), j'hésite entre vomir et rire du paradoxe. Finalement : :vomi2:
On est pas à une contradiction près...
Fermer